语音处理 - 智狐AI导航

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API，支持文本与音频输入输出，具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接，支持事件驱动的交互模式，适用于客户服务、语言学习、游戏娱乐等多种应用场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 776 浏览

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具，采用20万小时高质量英语语音数据训练，具备高精度语音转录能力，支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容，并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景，为用户提供灵活且高效的语音转文字解决方案。

AI项目与工具 2025年06月12日 55 点赞 0 评论 766 浏览

Fish Agent

Fish Agent是一款集成了自动语音识别（ASR）与文本到语音（TTS）技术的端到端语音处理工具，能够直接实现语音到语音的转换，无需传统语义编码器/解码器。它支持多种语言，适用于语音转换、环境音频信息捕捉等场景，并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 820 浏览

SOLAMI

SOLAMI是一款基于VR环境的3D角色扮演AI系统，支持用户通过语音和肢体语言与虚拟角色进行沉浸式互动。系统采用社交视觉-语言-行为模型（Social VLA），可识别用户的多模态输入并生成相应响应，涵盖多种角色类型及互动场景，如游戏、舞蹈等。其核心技术涉及多任务预训练和指令微调，适用于虚拟社交、教育、心理治疗及娱乐等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 762 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 582 浏览

3D

3D-Speaker是一个多模态开源项目，专注于通过结合声学、语义和视觉信息，实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码，以及多样化数据集，并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 575 浏览

MNN

MNN是一个由阿里巴巴开源的轻量级深度学习推理框架，支持多种模型格式和网络结构，具备高性能、低内存占用及跨平台特性。它通过模型量化、计算图优化和异构计算等技术，在移动设备和嵌入式系统中实现高效推理。主要功能涵盖模型转换、硬件加速、内存优化及多模型支持，广泛应用于图像识别、语音处理、智能家居及工业检测等领域。

AI项目与工具 2025年06月12日 76 点赞 0 评论 726 浏览

在线AI转换

在线AI转换是一个集语音处理与图像优化于一体的AI平台，支持文本转语音、语音转文字、图像去雾、无损放大、黑白上色等功能，操作便捷，适用于多种应用场景，如有声书制作、会议记录、照片修复等，有效提升内容创作与图像处理效率。

AI项目与工具 2025年06月12日 12 点赞 0 评论 642 浏览

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型，具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互，适用于智能客服、教育、医疗等多个领域，提升人机对话的自然度与效率。

AI项目与工具 2025年06月12日 59 点赞 0 评论 901 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 637 浏览

语音处理

首页

语音处理

列表

默认

浏览次数

发布日期